商业自主机器是一个蓬勃发展的扇区,它可能是下一个无处不在的计算平台,它是在个人计算机(PC),云计算和移动计算之后的。然而,缺少适用于自动机器的合适计算基板,许多公司被迫开发既不原则也不可扩展的临时计算解决方案。通过分析自动机器计算的需求,本文提出了数据流加速器体系结构(DAA),这是经典数据流原理的现代实例化,与自动机器软件的特性相匹配。
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
在图像采集过程中,噪声无处不在。足够的降解通常是图像处理的重要第一步。近几十年来,深度神经网络(DNN)已被广泛用于图像denosising。大多数基于DNN的图像Denoising方法都需要大规模数据集或专注于监督设置,其中需要单个/对的干净图像或一组嘈杂的图像。这给图像采集过程带来了重大负担。此外,在有限规模的数据集上接受培训的DeNoiser可能会产生过度拟合。为了减轻这些问题,我们基于Tucker低级张量近似引入了一个新的自我监督框架,以供图像Denoising。借助提出的设计,我们能够以更少的参数来表征我们的Denoiser,并根据单个图像进行训练,从而大大提高了模型的推广性并降低了数据获取的成本。已经进行了合成和现实世界嘈杂图像的广泛实验。经验结果表明,我们提出的方法优于现有的非学习方法(例如,低通滤波器,非本地均值),单像无监督的DENOISER(例如DIP,DIP,NN+BM3D)在样本中和样本中评估户外样本数据集。提出的方法甚至通过一些有监督的方法(例如DNCNN)实现了可比的性能。
translated by 谷歌翻译
基于变压器的模型的出现,机器翻译已经快速发展。这些模型没有内置的明确的语言结构,但是它们仍然可以通过参与相关令牌隐式学习结构化的关系。我们假设通过明确赋予变形金刚具有结构性偏见,可以使这种结构学习变得更加健壮,我们研究了两种在这种偏见中构建的方法。一种方法,即TP变换器,可以增强传统的变压器体系结构,包括代表结构的附加组件。第二种方法通过将数据分割为形态令牌化来灌输数据级别的结构。我们测试了这些方法从英语翻译成土耳其语和Inuktitut的形态丰富的语言,并考虑自动指标和人类评估。我们发现,这两种方法中每种方法都允许网络实现更好的性能,但是此改进取决于数据集的大小。总而言之,结构编码方法使变压器更具样本效率,从而使它们能够从少量数据中表现得更好。
translated by 谷歌翻译
组织分割是病理检查的主要主机,而手动描述则过于繁重。为了协助这一耗时和主观的手动步骤,研究人员已经设计了自动在病理图像中分割结构的方法。最近,自动化机器和基于深度学习的方法主导了组织分割研究。但是,大多数基于机器和深度学习的方法都是使用大量培训样本进行监督和开发的,其中PixelWise注释很昂贵,有时无法获得。本文通过将端到端的深层混合模型与有限的指标集成以获取准确的语义组织分割,从而引入了一种新颖的无监督学习范式。该约束旨在在计算优化函数期间集中深层混合模型的组成部分。这样做,可以大大减少当前无监督学习方法中常见的多余或空的班级问题。通过对公共和内部数据集的验证,拟议的深度约束高斯网络在组织细分方面取得了更好的性能(Wilcoxon签名级测试)更好的性能(平均骰子得分分别为0.737和0.735),具有改善与其他现有的无监督分割方法相比。此外,该方法与完全监督的U-NET相比,提出的方法具有相似的性能(P值> 0.05)。
translated by 谷歌翻译
文本VQA旨在回答需要了解图像中文本提示的问题。尽管现有的文本VQA方法取得了长足的进步,但它们的性能仍遭受了人类标记的问题解答(QA)对不足。但是,我们观察到,通常在现有数据集中没有完全利用场景文本 - 每个图像中只有一小部分文本参与了带注释的QA活动。这导致大量有用的信息浪费。为了解决这种缺陷,我们开发了一种新方法来通过明确利用每个图像的场景上下文中可用的现有文本来生成高质量和多样化的质量质量对。具体而言,我们建议,TAG是一种文本感知的视觉问题 - 答案生成的结构,该结构学会使用多模式变压器来生成有意义且准确的QA样品。该体系结构通过将生成的QA对与初始培训数据相结合,从而利用了未充满激光的场景文本信息,并增强了文本VQA模型的场景理解。对两个众所周知的Text-VQA基准(TextVQA和ST-VQA)的广泛实验结果表明,我们提议的标签有效地扩大了训练数据,有助于提高文本VQA性能而无需额外的标签努力。此外,我们的模型优于预先通过大规模数据进行训练的最先进方法。代码将公开可用。
translated by 谷歌翻译
预训练模型已在许多代码智能任务中有效。这些模型在大规模未标记的语料库中进行了预训练,然后在下游任务中进行了微调。但是,由于预训练和下游任务的输入是不同的形式,因此很难充分探索预训练模型的知识。此外,微调的性能强烈依赖于下游数据的量,而实际上,具有稀缺数据的场景很常见。自然语言处理(NLP)领域的最新研究表明,迅速调整,一种调整的新范式,减轻上述问题并在各种NLP任务中实现了有希望的结果。在迅速调整中,在调整过程中插入的提示提供了特定于任务的知识,这对于具有相对较少数据的任务特别有益。在本文中,我们凭经验评估了代码智能任务中迅速调整的用法和效果。我们对流行的预训练模型Codebert和codet5进行及时调整,并尝试三个代码智能任务,包括缺陷预测,代码摘要和代码翻译。我们的实验结果表明,在所有三个任务中,迅速调整始终优于微调。此外,及时调整在低资源场景中显示出很大的潜力,例如,对于代码摘要,平均将微调的BLEU分数提高了26%以上。我们的结果表明,我们可以调整代码智能任务的迅速调整,以实现更好的性能,尤其是在缺乏特定于任务的数据时,我们可以调整及时调整。
translated by 谷歌翻译
在全球范围内消除语言障碍的目标的驱动下,机器翻译已巩固自己是当今人工智能研究的关键重点。但是,这样的努力围绕着一小部分语言结合在一起,留下了绝大多数低资源的语言。在确保安全,高质量的结果的同时,在牢记道德考虑的同时,打破200个语言障碍需要什么?没有留下的语言,我们首先通过与母语人士的探索性访谈来解决对低资源语言翻译支持的必要性来应对这一挑战。然后,我们创建了旨在缩小低资源和高资源语言之间的性能差距的数据集和模型。更具体地说,我们开发了一种有条件的计算模型,基于专家的稀疏混合物,该模型经过针对针对低资源语言量身定制的新颖有效的数据挖掘技术培训的。我们提出了多次建筑和培训改进,以抵消数千个任务的培训。至关重要的是,我们使用人类翻译的基准,Flores-200评估了40,000多种不同的翻译方向的性能,并将人类评估与新型毒性基准相结合,涵盖Flores-200的所有语言,以评估翻译安全性。我们的模型相对于先前的最新技术,实现了44%BLEU的改善,为实现通用翻译系统奠定了重要的基础。最后,我们开源此工作中描述的所有贡献,可在https://github.com/facebookresearch/fairseq/tree/nllb上访问。
translated by 谷歌翻译
快速MRI旨在通过部分观察到的测量结果重建高保真图像。最近已经看到了使用深度学习的快速MRI的旺盛发展。同时,新颖的深度学习范式,例如基于变压器的模型,在自然语言处理中快速增长,并由于其出色的性能而迅速开发用于计算机视觉和医学图像分析。然而,由于变压器的复杂性,快速MRI的应用可能并不直接。主要障碍是自我发项层的计算成本(这是变压器的核心部分)对于高分辨率MRI输入而言可能是昂贵的。在这项研究中,我们提出了一种新的变压器体系结构,用于求解快速MRI,该架构将转移的Windows变压器与U-NET耦合,以降低网络的复杂性。我们将注意力集中在解释我们的重建模型的解释性上。我们从经验上证明,我们的方法在快速MRI任务上始终如一地达到卓越的性能。此外,与最先进的变压器模型相比,我们的方法在揭示解释性的同时具有更少的网络参数。该代码可在https://github.com/ayanglab/sdaut上公开获取。
translated by 谷歌翻译
Gigapixel Medical图像提供了大量的数据,包括形态学纹理和空间信息。由于组织学的数据量表较大,​​深度学习方法作为特征提取器起着越来越重要的作用。现有的解决方案在很大程度上依赖卷积神经网络(CNN)进行全局像素级分析,从而使潜在的局部几何结构(例如肿瘤微环境中的细胞之间的相互作用均未探索。事实证明,医学图像中的拓扑结构与肿瘤进化密切相关,可以很好地表征图。为了获得下游肿瘤学任务的更全面的表示,我们提出了一个融合框架,以增强CNN捕获的全局图像级表示,并使用图形神经网络(GNN)学习的细胞级空间信息的几何形状。融合层优化了全局图像和单元图的协作特征之间的集成。已经开发了两种融合策略:一种具有MLP的融合策略,这很简单,但通过微调而有效,而Transformer获得了融合多个网络的冠军。我们评估了从大型患者群体和胃癌策划的组织学数据集中的融合策略,以完成三个生物标志物预测任务。两种型号的表现都优于普通CNN或GNN,在各种网络骨架上达到了超过5%的AUC提高。实验结果在医学图像分析中将图像水平的形态特征与细胞空间关系相结合的必要性。代码可在https://github.com/yiqings/hegnnenhancecnn上找到。
translated by 谷歌翻译